Transformer
語言模型
⓶訓練資料:
包括Wikipedia + Bookcorpus(11038本書)加上FB(Meta)共33億個詞。
⓷訓練方式:
* 詞層次(Word Level)克漏字填空(Masked Language Model, MLM):會在輸入的文本中隨機掩蓋(Mask)每個句子中15%的詞,然後訓練左右兩邊的詞句來預測中間被掩蓋的詞,例如「月有??陰晴圓缺」,如此的訓練可以得到中間詞前後左右雙向的依賴關係(Bidirection Relationship),並解決同詞異議的問題。
* 句子層次下一句預測,即NSP(Next Sentence Prediction):在Input的句子後下一個句子視為「正確」的正樣本(Positive Sample),然後NSP再隨機由文本抽取一個其他句子視為錯誤的負樣本(Nagetive Sample),兩個正負樣本來不斷大量的進行二分類訓練,直到BERT能正確預測下一句為止。
③BERT主要優勢:
⓵Transformer優勢:平行、聚焦,直接對應、速度快的Transformer Model及其所具備的自我注意力機制。
⓶詞層次深入的理解詞意:利用MLM以及自我注意力(SATT)。
⓷句子層次的深入瞭解句子與句子之間的關係:NSP Model。
⓸非監督式學習:成本低、獲取容易、可大量蒐集、不用標註、不用做預處理的一般通用語料,例如:FB等。
④BERT主要貢獻與應用:
⓵取代傳統複雜的NLP預處理工作(Pre-processing):「觸類旁通、融會貫通」,只需輸入原始文本,不須經過各種預處理。
⓶取代部分下游任務工作:bert為一個已經訓練好的預訓練模式,對於下游的任務,只要上面加上一個簡單的Decoder或一個簡單的分類器(Classifier),再加上少數的樣本就可以有效地執行各種任務。
GPT-3(Generative Pre-trained Transformer 3):
①GPT-3基本架構:
一個基於Transformer Decoder無監督式學習、單向、大型通用式語言模型,目標在於預測下一句最合理的詞句為任務,大型的GPT-3有1750億個參數,96層的Transformer每層有128個Attention Head詞向量的維度為12288,GPT-3有各種Size,從1.25億個參數到27億、67億、130億、1750億都有。
②GPT-3訓練數據:
45TB(兆)的文本,來源:Common Crawl DataSet一共有4100億個詞句(占60%)、Web Text有190億個詞句(22%)、Bookl有550億、Wikipedia30億的詞(3%)。
③GPT-3主要預測方式:
⓵少量樣本(Few Shot):只用10~100個目標任務的心樣本就可以執行許多下游任務,而不需要改變原來語言模式內的所有參數權重,亦即不需要做微調工作。
⓶單一樣本(One Shot):只給一個下游任務的樣本Demo給GPT-3看,而GPT-3就要執行此任務,例如:要求GPT-3由文本中抽取出摘要,而只給他一個例子來監督學習。
⓷零樣本(Zero Shot):只是描述任務的特性,而不給任何的樣本而讓GPT-3自己去執行,例如:直接叫GPT-3執行翻譯英文到法文,不給例子,微調的效果>少量樣本>單一樣本>零樣本。
④GPT-3應用與績效表現:
Ⅰ. 句子理解方面:由一個「句子」來預測「最後一個字」,測試其長距離的依賴關係與對句子結構的理解。
Ⅱ. 文本理解方面:預測文本結尾,若人類得95分,GPT-3則可得到78~79分。
Ⅲ. 句子面關係方面:瞭解文本句與句子的關係。
Ⅳ. QA系統:文章中、書本及維基的文本內,直接抽取出正確的回答。
Ⅴ. 機器翻譯方面:各國語言翻譯。
Ⅵ. 常識與推理(Common Sence Reasoning)方面:在3~9年級科學考試或式簡單算術選擇題都有50%~70%正確率。
Ⅶ. 閱讀瞭解(Reading Comprehension):文本摘要、問答系統、聊天機器人。
Ⅷ. 數學方面:二位數加減完全沒問題,三位數加減正確率是80%~90%。
Ⅸ. 語意瞭解方面:SAT正確比率60%~65%,美國大學生平均是57%。
Ⅹ. 創造新聞本方面:寫出一篇文章,有52%的人猜不出是AI寫的。
Ⅺ. 句子生成方面:沒見過的生字,簡單的解釋以後由他自己造句。
⑤GPT-3主要風險:
⓵誤用的強力語言工具:詐騙集團、假消息、垃圾郵件、論文造假等。
⓶垃圾進垃圾出:如果輸入的資料包括有歧視、不公平、霸凌、辱罵、汙穢的內容,則輸出的也會有這種偏差的內容。
⓷品質問題:大部分FB、Web、Blog、Twitter等社群媒體上的文本內容,品質本來就不高,故分析出來的文具內容也有內容品質的問題。
⓸準確穩定性問題:如果沒有經過微調,加入多目標樣本訓練,則其績效更是不穩定。
未來LM走勢:
①更可控制文本生成:不要Garbage In Garbage Out(GIGO)。
②綜合知識圖譜(Knowledge Graph , KG):瞭解文句中的正確邏輯關係。
③更好的道德風險分析:用道德規範指標來比較不同LM輸出品質、做倫理道德偏差內容比較分析、監督與改善LM未來生成內容品質。
參考資料
人工智慧-概念應用與管理 林東清著